16장. LM Studio — GUI로 시작하기

이 장의 목표 15분 안에 내 맥에서 첫 로컬 AI 응답을 받는 것이 목표입니다.

가장 친절한 GUI 도구 LM Studio로 시작합니다.

16.1 LM Studio가 뭔가?

로컬 AI를 마우스 클릭만으로 다루게 해주는 앱.

모델 검색
모델 다운로드
모델 로드/언로드
채팅 인터페이스
API 서버 기능
GGUF · MLX 모두 지원

처음 로컬 AI를 만지는 사람에게는 LM Studio가 가장 부드러운 시작입니다.

16.2 설치

lmstudio.ai 에 들어가서 Download for macOS (Apple Silicon) 버튼.

다운로드된 .dmg 를 열고 Applications 폴더로 드래그.

Launchpad 또는 Spotlight 에서 “LM Studio” 검색 → 실행.

16.3 첫 실행 — 화면 구성

좌측 사이드바에 5개 아이콘이 있습니다.

[💬] Chat        — 대화
[🔍] Discover    — 모델 찾기·다운로드
[📁] My Models   — 받아둔 모델 목록
[🔧] Developer   — 로컬 API 서버
[⚙️] Settings    — 환경 설정

처음 할 일은 Discover 입니다.

16.4 첫 모델 다운로드 — Discover 탭

검색창에 다음을 넣어보세요.

Qwen3-8B-Instruct

이 책의 표준 첫 모델은 8B Q4_K_M 입니다.

내 맥 메모리	첫 모델 추천
16GB	`Qwen3-8B-Instruct` Q4_K_M
32GB	`Qwen3-14B-Instruct` Q5_K_M
64GB	`Qwen3-32B-Instruct` Q4_K_M

오른쪽에 양자화별 파일 목록이 보입니다.

Q2_K       Q3_K_M   Q4_K_S   ★Q4_K_M★   Q5_K_M   Q6_K   Q8_0

별표로 추천된 양자화가 나옵니다. 보통 Q4_K_M 입니다.

다운로드 버튼을 누르면 진행 바가 흐릅니다.

8B Q4는 약 5GB. 32B Q4는 약 20GB. 안정된 와이파이에서 받으세요.

16.5 MLX 버전을 받을지 GGUF를 받을지

LM Studio는 둘 다 받을 수 있습니다. 검색 결과 옆에 GGUF 또는 MLX 태그가 보입니다.

상황	추천
처음	GGUF (안정적)
속도 최우선	MLX
윈도우와 호환 신경 쓰임	GGUF

처음에는 GGUF로 시작합시다. 19장에서 MLX 버전을 추가로 받아 비교해봅니다.

16.6 첫 채팅 — Chat 탭

다운로드가 끝나면 Chat 탭으로 갑니다.

상단 중앙에 모델 선택 드롭다운.

[Select a model to load ↓]

방금 받은 모델을 고르면 오른쪽에 로드 옵션 패널이 떠요.

Context Length:  [ 8192 ]
GPU Offload:     [ Max ]
CPU Threads:     [ Auto ]
KV Cache (FP16): [ ON ]

처음에는 그대로 두고 Load Model 클릭.

수 초~십수 초 후 메모리에 올라옵니다.

이제 아래 입력창에 질문을 적어보세요.

한국어로 자기 소개 한 문장 해줘.

답이 흐르면 성공입니다.

16.7 답변 화면에서 보이는 정보

응답이 완료되면 작은 글씨로 다음 정보가 뜹니다.

First token: 0.4s  •  Speed: 21.3 tok/s  •  92 tokens

항목	의미
First token	답이 시작되기까지 (prefill)
Speed	decode 속도 (7장 그 값)
tokens	총 토큰 수

이걸 보면서 내 맥의 실제 성능을 측정할 수 있습니다.

16.8 LM Studio 채팅 화면의 유용한 기능

System Prompt 입력 (좌측 또는 상단)
Temperature, Top-P 조절 (우측)
컨텍스트 길이 변경 (모델 재로드 필요)
Conversation branching — 답변에서 분기
이미지 첨부 (VL 모델일 경우)
모델 비교 모드 (같은 질문에 두 모델 동시)
Markdown 렌더링, 코드 하이라이트

16.9 컨텍스트 길이 — 빨리 만지는 법

상단 모델 이름 옆 ⚙ Configure 클릭 → Context Length 슬라이더.

컨텍스트	권장
8K	일반 대화
16K	코드·짧은 문서
32K	회의록·보고서
64K+	장문 분석 (메모리 여유)

너무 크게 잡으면 KV Cache로 메모리가 폭주합니다 (6장). 처음에는 8K~16K 권장.

16.10 API 서버 — Developer 탭

LM Studio의 진짜 강점: 클릭 한 번으로 OpenAI 호환 API 서버가 됩니다.

좌측 Developer 탭 → 상단 Start Server.

Status: Running on http://localhost:1234

이제 다음 명령으로 외부에서 호출 가능:

$ curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-8b-instruct",
    "messages": [
      {"role": "user", "content": "안녕"}
    ]
  }'

이건 25장(OpenAI 호환 API)에서 본격 다룹니다.

16.11 자주 만나는 LM Studio 문제

“Out of memory” 떠요

컨텍스트를 줄이세요. 또는 한 단계 아래 양자화로 다시 받으세요.

너무 느려요

채팅 기록이 길어졌나? → 새 채팅 시작
다른 모델이 로드돼 있나? → 언로드
컨텍스트가 너무 큰가? → 줄이기
MLX 버전이 있나? → 그쪽 받아 비교

한국어가 깨져요

양자화가 너무 낮음 (Q3 이하)
모델 자체의 한국어가 약함 (모델 카드 확인)
Chat Template이 잘못 적용 (22장)

16.12 LM Studio의 한계

처음에는 좋지만 점점 답답해질 수도 있습니다.

자동화·스크립트는 Ollama·llama.cpp가 더 편함
일부 최신 모델은 LM Studio 업데이트 지연
큰 워크로드를 백그라운드로 돌리기엔 무거움

그래도 처음 한 달은 LM Studio로 학습하세요. 다른 도구도 결국 같은 원리입니다.

이 장에서 기억할 한 가지

첫 로컬 AI 응답까지 15분.

LM Studio 설치

Discover에서 8B Q4_K_M 다운로드

Chat에서 Load

질문하면 답이 흐름

손으로 해볼 것

1. 내 맥의 표준 모델 받아 첫 대화

위 16.4 절 표에서 내 맥에 맞는 모델 하나 받기.

다음 질문을 차례로 던져 보세요.

1. 한국어로 자기 소개 한 문장 해줘.
2. 1과 2를 합하면? (수학 기초)
3. Python으로 1~10 출력하는 코드 한 줄 짜줘.
4. 너 한국어 잘하는 편이야? 솔직하게.

응답마다 First token / Speed 값을 메모해두세요.

2. 같은 질문으로 양자화 비교 (선택)

여유 메모리가 있다면 Q4_K_M 과 Q5_K_M 을 모두 받아 같은 질문에 답을 비교해 보세요.

품질 vs 속도 트레이드오프를 직접 체감할 수 있습니다.

다음 장에서는 Ollama — 터미널과 API 중심의 로컬 AI 도구를 다룹니다.

자동화나 사내 도구에 붙일 거라면 거의 항상 Ollama가 더 편합니다.

Keyboard shortcuts

맥에서 시작하는 로컬 AI